Название

Text copied to clipboard!

Инженер по надежности сайта

Описание

Text copied to clipboard!

Мы ищем Инженера по надежности сайта, который будет играть ключевую роль в обеспечении высокой доступности, производительности и устойчивости наших цифровых продуктов. В этой роли вы будете работать в тесном сотрудничестве с командами разработки, эксплуатации и безопасности для проектирования, построения и поддержки масштабируемых и отказоустойчивых систем. Вы будете использовать лучшие практики DevOps, автоматизацию и мониторинг для обеспечения бесперебойной работы сервисов и быстрого реагирования на инциденты. Инженер по надежности сайта (SRE) отвечает за внедрение процессов, которые позволяют системам быть самовосстанавливающимися, масштабируемыми и предсказуемыми. Вы будете анализировать инциденты, выявлять корневые причины и разрабатывать решения, предотвращающие повторение проблем. Также вы будете участвовать в разработке инструментов и платформ, которые помогут другим командам быстрее и безопаснее разрабатывать и внедрять программное обеспечение. Мы ценим инициативность, аналитическое мышление и стремление к постоянному улучшению. Если вы увлечены автоматизацией, мониторингом и построением надёжных систем — мы будем рады видеть вас в нашей команде.

Обязанности

Text copied to clipboard!

Разработка и поддержка инструментов мониторинга и алертинга
Автоматизация процессов развертывания и управления инфраструктурой
Анализ и устранение инцидентов, выявление корневых причин
Оптимизация производительности и устойчивости систем
Сотрудничество с командами разработки для улучшения архитектуры приложений
Участие в планировании и реализации стратегий отказоустойчивости
Разработка и поддержка документации по эксплуатации систем
Оценка рисков и внедрение мер по обеспечению безопасности
Участие в дежурствах по реагированию на инциденты
Построение и поддержка CI/CD пайплайнов

Требования

Text copied to clipboard!

Опыт работы в роли SRE, DevOps или системного администратора от 2 лет
Знание Linux/Unix систем и принципов их администрирования
Опыт работы с облачными платформами (AWS, GCP, Azure)
Навыки программирования на Python, Go или Bash
Опыт работы с системами мониторинга (Prometheus, Grafana, ELK)
Знание принципов CI/CD и опыт работы с Jenkins, GitLab CI или аналогами
Понимание сетевых протоколов и принципов безопасности
Умение анализировать логи и производить отладку систем
Опыт работы с контейнерами и оркестраторами (Docker, Kubernetes)
Хорошие коммуникативные навыки и умение работать в команде

Возможные вопросы на интервью

Text copied to clipboard!

Какой у вас опыт работы с системами мониторинга и алертинга?
Какие инструменты вы используете для автоматизации инфраструктуры?
Расскажите о случае, когда вы устраняли критический инцидент.
Как вы обеспечиваете отказоустойчивость систем?
Какой у вас опыт работы с CI/CD пайплайнами?
Какие языки программирования вы используете в своей работе?
Как вы подходите к анализу производительности системы?
Как вы взаимодействуете с командами разработки?
Как вы обеспечиваете безопасность инфраструктуры?
Какие метрики вы считаете ключевыми для оценки надёжности?

Название

Инженер по надежности сайта

Описание

Обязанности

Требования

Возможные вопросы на интервью

Необходимые навыки

Связанные вакансии